Alineación de teléfono a audio independiente del texto aprovechando la representación latente del modelo preentrenado TIPAA-SSL y la transferencia de conocimiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Alineación de teléfono a audio independiente del texto aprovechando la representación latente del modelo preentrenado TIPAA-SSL y la transferencia de conocimiento

Autores: Tits, Noé; Bhatnagar, Prernna; Dutoit, Thierry

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Alineación de teléfono a audio independiente del texto aprovechando la representación latente del modelo preentrenado TIPAA-SSL y la transferencia de conocimiento

Categoría

Artes

Subcategoría

Música

Palabras clave

Enfoque novedoso

Alineación de teléfono a audio

Reconocimiento de fonemas

Aprendizaje de representaciones

Transferencia de conocimiento

Modelo auto-supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

En este artículo, presentamos un enfoque novedoso para la alineación de teléfono a audio independiente del texto basado en el reconocimiento de fonemas, el aprendizaje de representaciones y la transferencia de conocimiento. Nuestro método aprovecha un modelo auto-supervisado (Wav2Vec2) ajustado para el reconocimiento de fonemas utilizando una pérdida de Clasificación Temporal Conexista (CTC), un modelo de reducción de dimensiones y un clasificador de fonemas a nivel de cuadro entrenado utilizando etiquetas de alineación forzada (usando Montreal Forced Aligner) para producir representaciones fonéticas multilingües, requiriendo así un entrenamiento adicional mínimo. Evaluamos nuestro modelo utilizando datos nativos sintéticos del conjunto de datos TIMIT y del conjunto de datos SCRIBE para el inglés americano y británico, respectivamente. Nuestro modelo propuesto supera al estado del arte (charsiu) en métricas estadísticas y tiene aplicaciones en el aprendizaje de idiomas y sistemas de procesamiento de voz. Dejamos los experimentos en otros idiomas para trabajos futuros, pero el diseño del sistema lo hace fácilmente adaptable a otros idiomas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro